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摘要 : [目的 /意义 ] 介绍 Make Data Count 与 COUNTER 联合 推出 的 《研究 数据 使 用 统计 实施 规范 》 ,为 数 
据 级 别 计量 提供 新 指标 与 新 视角 。[ 方 法 /过 程 ] 通过 对 标准 文本 的 分 析 , 介 绍 该 规范 的 提出 背景 .目标 范围、 
相关 概念 及 核心 内 容 ,通过 案例 剖析 Dash, DataONE ,Zenodo 及 其 他 7 个 数据 存储 库 对 《规范 》 的 应 用 情况 。[ 结 
果 / 结 论 ] 研究 数据 的 使 用 统计 具有 其 独特 之 处 规范》 的 推出 可 对 数据 引用 及 数据 替代 计量 形成 补充 进而 描 
述 完 整 的 科研 学 术 影 响 力 。 目 前 遵循 该 规范 的 数据 存储 库 还 不 多 ,为 推动 数据 使 用 计量 的 应 用 ,需要 标准 组 
织 、 科 研 人 员 、 机 构 库 及 数据 存储 库 、 出 版 商科 研 机 构 及 资助 机 构 、 图 书馆 等 不 同 利益 相关 者 在 数据 产生 、 管 


理 、 传 播 与 利用 等 环节 的 相互 合作 。 
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随 着 数据 密集 型 科研 范式 的 发 展 ,研究 数据 越 来 
越 磺 为 学 术 产 出 的 重要 组 成 部 分 。 为 鼓励 科研 人 员 公 
天 \ 拱 享 与 重用 研究 数据 ,学 术 界 已 开始 呼吁 像 对 待 研 
完 论 文 一 样 对 待 研 究 数据 ,将 研究 数据 纳入 科研 评价 
的 刘 象 ,探索 研究 数据 的 计量 与 影响 力 评价 。 研 究 数 
据 酌 使 用 统计 被 科研 人 员 及 其 他 利益 相关 者 认为 是 重 
要 的 指标 之 一 , 仅 次 于 数据 引用 次 数 "”。 但 是 ,由 于 缺 
乏 相 应 的 标准 规范 研究 数据 的 使 用 统计 数据 的 收集 与 
获取 ,研究 数据 的 使 用 统计 指标 还 未 发 挥 其 应 有 的 作 
Fic 3 为 此 ,Make Data Count 项 目 与 COUNTER ( Counting 
Online Usage of Networked Electronic Resources ) 项 目 合 


作 开 发 ,于 2018 年 6 月 5 日 正式 发 布 4 研究 数据 使 用 


1 数据 使 用 统计 提出 背景 


根据 美国 国家 信息 标准 化 组 织 NISO 的 定义 ” , 数 
据 使 用 是 用 户 访问 以 及 下 载 一 个 公开 出 版 的 数据 集 的 
行为 ,其 统计 范围 包括 数据 的 下 载 .数据 访问 、 数 据 集 
标注 等 。 数 据 使 用 统计 的 提出 是 利益 相关 者 意识 到 其 
重要 性 ,并 考虑 建立 综合 的 数据 影响 力 评价 的 需求 ,以 
及 为 弥补 数据 使 用 指标 领域 现实 空缺 的 情况 下 提出 的 。 
1.1 数据 使 用 指标 具有 重要 性 

数据 使 用 指标 可 以 帮助 科研 人 员 在 数据 正式 被 引 
用 发 生前 就 了 解 其 研究 数据 的 受 关注 程度 ,并 作为 重 
要 的 科研 评价 数据 ,激励 科研 人 员 参 与 数据 共享 与 重 


统计 实施 规范 》( 第 1 版 ) ” (以 下 简称 《规范 》) ,规范 
研究 数据 的 使 用 统计 的 生成 与 发 布 ,为 数据 存储 库 及 
数据 平台 提供 者 提供 一 致 性 .可靠 性 和 相互 兼容 性 的 
关于 研究 数据 的 使 用 统计 ,促进 数据 存储 库 、 图 书馆 、 
基金 资助 者 及 其 他 利益 相关 者 推动 研究 数据 的 重用 。 
本 文 介绍 新 版 研究 数据 的 使 用 统计 实施 规范 的 提出 背 
E .基本 内 容 及 其 应 用 情况 ,并 基于 利益 相关 者 提出 推 
动 数据 使 用 计量 的 建议 。 


j ;帮助 机 构 监测 数据 的 使 用 趋势 进而 评估 数据 存储 
设施 的 服务 效果 ,同时 评估 存储 设施 与 网 络 系统 的 容 
量 需求 ,还 可 针对 受 欢 迎 度 高 的 数据 集 创 建 专门 的 馆 
藏 ;帮助 数据 存储 库 了 解 其 数据 的 使 用 情况 及 茶 些 特 
定数 据 集 的 影响 力 ; 帮 助 基金 资助 机 构 了 解 其 所 资助 
的 科研 产 出 (研究 数据 ) 对 科学 进展 及 整个 社会 的 贡 
献 。 

1.2. 建立 综合 的 数据 影响 力 评 价 的 迫切 需求 

尽管 数据 引用 指标 是 当前 数据 计量 及 数据 影响 
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力 评估 领域 首 当 推崇 的 测量 指标 ,但 其 并 不 能 全 面 
说 明 数 据 重用 的 概貌 。 科 学 文献 领域 已 开始 反思 引 
用 作为 学 术 评价 计量 指标 的 单一 性 和 绝对 性 ,进而 
提出 了 基于 引用 、 使 用 及 替代 计量 等 多 种 方式 来 综 
合 评价 学 术 影 响 力 。 对 于 研究 数据 ,国外 已 有 研究 
提出 建立 多 种 数据 集 评价 指标 的 建议 ,如 K. M. 
Fear ^ 指出 数据 集 的 评价 计量 不 能 依据 单一 指标 ,应 
多 因素 考虑 ,如 数据 引用 计量 、 二 次 影响 (如 G 指 
数 ) .数据 重用 的 学 科 广 度 以 及 数据 下 载 量 。J. Bol- 
len 等 提出 基于 使 用 且 获 盖 整 个 研究 过 程 的 影响 计 
量 方法 ,计量 内 容 涵盖 引用 .发现 .下载 .同行 评议 邮 
件数 .阅读 以 及 保存 等 。 因 此 ,数据 使 用 指标 的 推出 
可 与 数据 引用 及 替代 计量 指标 形成 补充 进而 描述 完 
Melt PH VI JJ 

1,85 现实 中 缺乏 数据 使 用 指标 的 最 佳 实践 

GAN 数据 引用 、 数 据 使 用 (下 载 及 浏览 ) .数据 的 替代 


计 巡 是 数据 计量 与 影响 力 评 价 的 三 大 指标 体系 ,其 中 ， 


兹 饮 引用 计量 是 开展 最 早 且 研究 最 多 的 领域 ,其 次 是 
北 握 的 蔡 代 计 量 。 目 前 ,数据 引用 、 数 据 的 替代 计量 已 
经 会 布 了 一 定 的 规范 与 标准 。 如 未 来 科研 交流 与 电子 


co 
ANHE ( The future of research communication and e- 


Séliolarship, FORCE11) fE 2014 年 推出 了 《数据 引用 原 
由 六 Joint declaration of data citation principles ) 
Schlix Jii H ( A framework for scholarly link eXchange ) "n 
通过 建立 框架 推动 学 术 文献 与 数据 之 间 链 接 信息 的 交 
换 g 帮 助 科研 人 员 了 解 学 术 文献 中 的 数据 及 引用 数据 
WERN. PAEZ E T 2012 年 推出 了 数据 引文 
REI. Data citation index) 跟踪 和 记录 单个 数据 集 的 引 
用 次 数 。 美 国 国家 信息 标准 化 组 织 NISO 于 2013 年 开 
展 蔡 代 计 量 项 目 , 其 中 的 一 个 工作 组 主要 研究 数据 集 、 
软件 等 非 传统 科研 成 果 的 替代 计量 ”。 目 前 ,数据 使 
用 指标 的 最 佳 实践 仍 在 探索 之 中 。 为 推动 数据 使 用 指 


目前 数据 引用 领域 中 的 最 佳 实践 与 服务 也 是 一 个 有 
效 的 补充 。 


2 数据 使 用 统计 研究 现状 


国内 外 研究 目前 主要 从 整体 角度 研究 数据 级 别 的 
计量 与 数据 影响 力 , 较 多 关注 科学 数据 影响 力 的 引文 
指标 ,单独 从 使 用 统计 角度 研究 数据 级 别 的 计量 还 不 
多 。 具 体 如 下 : 

2.1 从 整体 角度 研究 数据 级 别 的 计量 与 数据 影响 力 


K. M. Fear ”提出 5 个 用 于 评估 科学 数据 影响 力 
的 指标 ,包括 数据 重用 频次 .重用 数据 的 出 版 物 的 质 
量 、 重 用 数据 的 出 版 物 的 多 样 性 、 源 于 单个 数据 集 的 相 
关 网 络 规模 以 及 数据 集 的 下 载 数量 。 此 外 ,部 分 国外 
组 织 及 实践 项 目 早已 开展 相关 研究。 如 Knowledge Ex- 
change 在 2013 年 发 布 的 《研究 数据 的 价值 > 报告 从 文 
化 与 技术 角度 分 析 数 据 计量 的 概念 .与 数据 计量 相关 
的 数据 共享 ,数据 共享 和 数据 计量 的 利益 相关 者 、 相 关 
的 知识 库 与 工具 等 问题 ”。 英 国 数据 监护 中 心 (The 
digital curation centre, DCC ) 在 2015 年 发 布 《如何 利 用 
计量 指标 追踪 研究 数据 的 影响 力 》 报 告 提 及 数据 计量 
的 相关 概念 .相关 工具 与 服务 .数据 计量 面临 的 挑战 
等 '"。 科研 管理 信息 标准 推进 
advancing standards in research administration informa- 
tion，CASRAI) 成 立 数据 集 级 别 计量 课题 小 组 ( Dataset 
level metrics subject group) 旨 在 集结 不 同 利益 相关 者 共 
同 研制 数据 级 别 的 计量 指标 T 。 研 究 数据 联盟 (The 
research data alliance, RDA ) 和 世界 数据 系统 (The 
world data system, WDS) 联合 成 立 了 数据 出 版 计量 工 
作 组 (RDAZWDS publishing data bibliometrics WG) 研究 
数据 计量 指标 及 相应 服务 。 以 上 实践 项 目 基本 在 
2013 -2015 年 之 间 开 展 , 目 前 已 极 少 更 新 。 它 们 推动 
并 引发 科学 界 对 数据 级 别 计量 的 思考 ,但 由 于 数据 计 


员 会 (The consortia 


标的 应 用 ,Make Data Count 项 目 从 2014 年 起 在 美国 国 
家 科学 基金 会 (National science foundation, NSF) EA- 
GER 基金 资助 下 ,基于 2009 年 由 PLOS 启动 的 “开放 
资源 文章 级 计量 指标 项 目 ”( Article -level metrics, 
ALM) -Lagotto 开展 数据 级 计量 指标 (The data -level 
metris, DLM) 试点 项 目 ”。 最 初 成 员 包括 PLOS ,加 
州 数字 图 书馆 (CDL) 及 DataONE , PLOS 在 后 来 退出 ， 
DataCite 加 入 ,并 最 终 推出 《研究 数据 使 用 统计 实施 
规范 》, 使 各 不 同 的 数据 存储 库 之 间 按 照 统一 的 规范 
提供 使 用 数据 ,这 是 实现 利用 研究 数据 使 用 统计 了 
解 研究 数据 如 何 重 用 这 个 过 程 中 的 重要 里 程 碑 , 对 


量 涉及 的 问题 较为 复杂 ,尚未 形成 系统 完善 的 评价 方 
法 。 国 内 主要 侧重 于 介绍 国外 项 目 与 进展 , 较 早 研究 
数据 级 别 计量 的 是 顾 立 平 ” ,介绍 数据 级 别 计量 的 概 
念 .发 展 与 应 用 。 王 角 萍 25 介绍 科学 数据 影响 力 的 内 
涵 类 型 .关系 .相关 主体 及 评价 方法 。 备 阳 "9 分 析 对 
比 数据 计量 与 文献 计量 之 间 的 异同 。 

2.2 ”从 数据 引用 计量 角度 研究 数据 级 别 计量 

国外 无 论 是 在 理论 还 是 实践 上 都 对 数据 引用 开展 
了 深入 研究 ,不仅 有 DataCite 研究 数据 联盟 .英国 数据 
监护 中 心 等 组 织 建立 数据 引用 标准 与 引用 原则 ,还 推 
出 了 数据 引文 索引 工具 跟踪 和 记录 引用 次 数 。 我 国 也 
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推出 了 《科学 数据 引用 》 国 家 标准 , 另 有 不 少 研究 关注 
国外 的 数据 引用 规范 ,同时 利用 数据 引文 索引 工具 分 
析 社 会 科学 数据 的 影响 力 ,如 丁 楠 "" 、 邢 红 梅 等。 
2.3 ”从 数据 使 用 角度 研究 数据 级 别 计量 

学 术 界 较 早 正式 提出 数据 使 用 统计 并 将 其 作为 音 
独 对 象 进行 研究 的 是 P. Ingwersen I V. Chavan!” 在 
2009 年 提出 的 数据 使 用 索引 (Data usage index) ,并 以 
GBIF( 生物 多 样 性 数据 库 ) 的 数据 为 基础 ,构建 了 包含 
搜索 密度 .下载 密 度 ,使 用 影响 .兴趣 影响 等 14 个 指标 
在 内 的 数据 使 用 指标 。 遗 憾 的 是 这 套 指标 仅 适用 于 
GBIF 数据 存储 库 ,其 科学 性 、 普 适 性 有 待 进一步 研究 。 
国内 目前 仅 丁 培 ” 涉及 科学 数据 使 用 统计 ,研究 科学 
数据 使 用 统计 的 收集 ,规范 ,清洗 .报告 等 关键 流程 。 
一 综 上 所 述 ,鉴于 目前 国内 外 的 研究 较 多 关注 数据 
计 晤 的 引文 指标 , 较 少 涉及 数据 的 下 载 浏览 等 使 用 指 
Fic cfr Make Data Count 项 目 与 COUNTER 为 制 
Ad e oe cl TI t Heb T e b AO CES 
据 酌 使 用 统计 实施 规范 》, 以 进一步 发 挥 数 据 使 用 统计 
指标 在 数据 计量 中 的 作用 。 


3 《规范 》 简 介 


@ 〇 《规范 》 是 由 在 数据 管理 领域 具有 丰富 经 验 的 三 
代 议 构 与 学 术 资源 使 用 统计 权威 组 织 COUNTER 共同 
DMIR. COUNTER 项 目 是 2002 年 3 月 启动 的 一 
芝 国 际 首创 计划 ,目的 是 规范 数据 库 商 向 图 书馆 提供 
的 八 用 数据 格式 、 内 容 、 术 语 等 ,使 各 数据 库 商 生成 的 
使 用 数据 具有 一 致 性 可 靠 性 和 相互 兼容 性 ,并 且 方 便 
ERAR ,其 主要 针对 电子 期 刊 . 电 子 图 书 、 数 据 
E 多 媒体 等 学 术 资 源 的 使 用 统计 。Make Data Count 
是 由 斯 隆基 金 资助 的 为 期 两 年 的 项 目 ,由 加 州 数字 图 
书馆 (California digital library) ,DataCite 及 DataONE 组 
成 。 其 中 ,加州 数字 图 书馆 是 由 加 州 大 学 在 1997 年 成 
立 , 数 据 监护 中 心 (University of California curation cen- 
ter, UC3) 是 CDL 的 四 大 主要 项 目 之 一 ,帮助 研究 人 员 
及 加 州 大 学 图 书馆 对 数字 资产 进行 管理 、 保 存 与 访问 ， 
并 提供 数据 生命 周期 的 管理 工具 与 服务 。DataCite 成 
立 于 2009 年 底 , 是 为 研究 数据 提供 永久 标识 符 DOI 的 
国际 性 非 营 利 组 织 ,帮助 研究 社区 定位 、 识 别 及 引用 研 
究 数 据 。DataONE ( Data observation network for earth ) 
F 2009 年 8 月 启动 ,是 NSF 资助 的 DataNet Ji E zz — , 
为 描述 与 发 现 地 球 观测 数据 建立 一 个 分 布 式 框架 及 可 
持续 的 网 络 基础 设施 。Make Data Count 和 COUNTER 
成 员 自 2017 年 6 月 开始 讨论 研究 数据 使 用 统计 的 推 
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荐 标准 ,并 于 一 年 后 推出 该 规范 。 
3.1 数据 集 相 关 概 念 

《规范 》 统 计 的 是 数据 集 的 使 用 情况 。 以 下 4 个 概 
念 是 4 规范》 对 数据 集 及 其 上 位 类 .下 位 类 所 规范 的 定 
义 , 有 助 于 了 解 研 究 数据 的 结构 及 细 粒 度 ,确定 《 规 
范 》 所 统计 的 对 象 。 

数据 集 (dataset) 是 由 某 个 代理 商 出 版 或 保管 的 数 
据 的 集合 ,与 其 元 数据 一 起 , 按 一 种 或 多 种 格式 提供 访 
间或 下 载 ” 。 数 据 集 是 COUNTER 中 的 一 个 内 容 项 。 
与 其 同 义 的 词 是 数据 包 (data package ) 。 

数据 组 成 部 分 (Component) 是 一 个 数据 集中 的 茶 
个 数据 ,可 单独 提供 访问 或 下 载 。 与 其 同 义 的 词 是 数 
据 文件 (data file) .数据 颗粒 (data granule) 。 

数据 集 集合 ( Collection) 是 数据 集 的 集合 。 相 关 的 
术语 是 目录 (catalog) .存储 库 (repository ) 。 

数据 集 的 版 本 ( Version ) 是 数据 集 的 基本 特征 ,是 
指 一 个 数据 集 的 多 个 版 本 。 内 容 或 (与 ) 元 数据 的 变 
化 一 个 或 多 个 组 成 部 分 的 变化 以 及 可 能 导致 组 成 部 
分 固定 属性 的 变化 都 会 产生 不 同 的 版 本 。 
3.2 《规范 》 参 考 的 标准 

《规范 》 是 在 参照 电子 资源 使 用 统计 、 使 用 统计 收 
割 . 引 用 、 替 代 计 量 等 多 个 已 有 标准 的 基础 上 提出 的 。 
首先 参照 了 2017 年 7 月 正式 发 布 的 《第 5 版 COUNT- 
ER 实施 3 35) ( COUNTER code of practice release 
5), COUNTER 是 主要 针对 期 刊 .图 书 等 学 术 资源 的 使 
用 统计 标准 ,因而 其 中 很 多 定义 、 处 理 规则 及 报告 建议 
都 可 适用 于 研究 数据 。 此 外 ,参考 了 电子 资源 使 用 统 
计 收 割 标准 SUSHI ( ANSI/NISO Z39.93 - 2014; Stand- 
ardized usage statistics harvesting initiative) ^" 。 该 标准 
代替 人 工 来 收集 使 用 数据 的 统计 报告 ,同样 适用 于 研 
究 数 据 。 另 外 ,还 参考 了 “Scholix metadata schema for 
the exchange of scholarly communication links" "sl 以 规范 
描述 数据 集 的 元 数据 ,及 美国 国家 信息 标准 化 组 织 的 
《替代 计量 项 目 成 果 》( NISO RP -25 -2016 : outputs of 
the NISO alternative assessment metrics project) 对 数据 
计量 以 及 永久 标识 符 的 相关 推荐 。 
3.3 《规范 》 的 目标 .范围 .与 4 第 5 版 COUNTER 实 
施 规范 》 的 关系 及 其 管理 

《规范 》 目 的 是 为 数据 存储 库 及 数据 平台 提供 者 
提供 一 致 性 、 可 靠 性 和 相互 兼容 性 的 关于 人 研究 数据 的 
使 用 统计 。 

目前 ,《 规 范 》 涉 及 的 对 象 只 是 数据 集 层面 的 使 用 
统计 ,未 来 将 根据 用 户 需 求 与 反馈 提供 数据 集中 所 有 


ChinaXiv 合 作 期 刊 


FEAR], TŽ. 研究 数据 使 用 统计 新 标准 及 其 应 用 案例 研究 [J]. 图 书 情 报 工作 ,2019 ,63(16 ) :32 - 42. 


组 成 部 分 的 使 用 统计 。《 规 范 》 主要 对 统计 的 数据 元 
素 数据 元 素 的 定义 、 使 用 报告 的 内 容 与 格式 ,数据 处 
MEOR 避免 重复 计量 等 内 容 进行 规定 。 

《规范 》 由 研究 数据 管理 领域 人 员 与 COUNTER 合 
作 完 成 ,并 遵循 (第 5 版 COUNTER 实施 规范 》, 仅 在 必 
要 时 与 《第 5 版 COUNTER 实施 规范 》 有 所 不 同 。 如 研 
究 数据 不 需要 提供 机 构 层面 的 使 用 统计 ,但 是 借 向 于 
按 地 理 位 置 划分 使 用 数据 。 另 一 个 显著 不 同 是 其 版 
本 ,需要 整合 某 个 数据 集 所 有 版 本 的 使 用 统计 。 此 外 ， 
也 不 需要 按照 文件 格式 发 布 统计 报告 ,如 不 单独 提供 
CSV 或 XLSX 格式 的 下 载 量 。 

《规范 》 由 Make Data Count 项 目 与 COUNTER 项 目 
合作 开发 ,也 由 其 合作 管理 。 
Sme 《规范 ) 的 核心 内 容 

| 它 《 规 范 ) 共 包括 8 个 部 分 内 容 :前 言 ;加 总 览 ;@ 


其 中 ,统计 指标 类 型 是 最 重要 的 报告 元 素 。《 规 
范 》 参 照 《 第 5 版 COUNTER 实施 规范 使 用 “调查 量 
( Investigations ) ”及 “请 求 量 (Requests ) ”指标 。 这 两 
个 统计 指标 是 第 5 版 COUNTER 新 引入 的 指标 。“ 调 
查 量 "表示 一 个 用 户 访问 茶 内 容 项 的 信息 (如 一 篇 文 
章 的 文摘 或 详细 的 描述 性 元 数据 ) 或 某 内 容 项 本 身 
(如 一 篇 文章 的 全 文 )。“ 请求 量 "是 指 用 户 请 求 某 内 
容 项 的 全 文 的 次 数 , 通 常 以 浏览 .下载 .email 或 打印 
等 形式 呈现 。 为 清楚 区 分 调查 量 与 请 求 量 , 《第 5 版 
COUNTER 实施 规范 》 提 供 了 一 个 调查 量 与 请 求 量 的 
关系 图 ( 见 图 1) 。 从 中 可 看 出 ,请求 量 是 调查 量 的 一 
个 子 集 。 应 用 于 研究 数据 ,可 理解 为 :任何 适用 于 数 
据 集 的 用 户 行为 (包括 元 数据 ) 都 可 认为 是 “调查 
量 ” ,包括 某 个 数据 集 的 下 载 或 浏览 量 。 而 "请求 量 ” 
仅 表示 检索 或 浏览 数据 集 本 身 的 用 户 行 为 。 “调查 


毛竹 的 技术 实施 ;@ 使 用 报告 ;@ 报 告 的 传递 ;@ 使 用 
SEMED; OREM: OF SUSHI 自动 收割 报 
EP, E3 4 5,7 8 是 该 实施 规范 在 执行 过 程 中 
的 核心 内 容 。 

SO 第 3 部 分 报告 的 技术 实施 “该 部 分 介绍 必须 
提 储 的 报告 ,描述 所 有 报告 的 通用 格式 ,定义 报告 属性 
SNRA. 

关于 提供 的 报告 ,报告 名 称 为 Dataset Master Re- 


个 报告 适用 于 存储 库 (repository ) 及 数据 存储 库 ( Data 
répository) 。 存 储 库 和 数据 存储 库 是 《规范 》 规 定 的 两 
种 括 管 类 型 (Host type) 。 存 储 库 是 托管 包括 研究 数据 
在 内 的 多 种 研究 产 出 类 型 的 仓储 ,如 机 构 库 即 属于 这 
种 类 型 ,如 Figshare。 数 据 存 储 库 是 仅 托管 研究 数据 的 
存储 库 , 学 科 领 域 的 数据 存储 库 属于 这 种 类 型 ,如 CDL 
Dash ,Dryad 等 。 

报告 的 格式 可 以 是 表格 格式 或 机 器 可 读 的 JSON 
( JavaScript object notation ) 文件 格式 。 

所 有 报告 的 结构 基本 相同 ,都 包含 一 个 表 头 ,与 
《第 5 版 COUNTER 实施 规范 》 不 同 的 是 ,研究 数据 使 
用 统计 报告 没有 机 构 相 关 的 元 素 , 即 机 构 名 称 (Institu- 
tion, name ) 及 ID ( Institution, ID), AIA EH 10 
个 :中 报告 名 称 (Report_name) ; 24ft ii ID ( Report. ID) ; 
OMA OFERA! ( Metric, types) ;@ 报 告 过 滤器 (Re- 
port. filters) ; Ok Jm tE ( Report, attributes ) ; Offi] /( Ex- 
ceptions) ; (dft H HJ ( Reporting. period) ;9 报告 创建 时 
间 ( Created ) ;四 报告 创建 者 (Created_by) 。 


量 ” 与“ 请求 量 ” X, 4& ^ y “Total” 5j * Unique” (具体 


链接 至 链接 解析 器 | | 
调查 量 


| (Investigations) 
1 


浏览 参考 文献 


链接 至 馆 际 互 借 表 单 | | 


| | 浏览 HTML 格式 的 全 文 


| 请 求 量 | 
浏览 PDF H , 
浏览 ! (Requests) | 
浏览 内 容 i 
浏览 文章 的 预览 概要 


图 1 调查 量 与 请 求 量 的 关系 


3.4.2 第 4 部 分 报告 该 部 分 提供 每 种 报告 的 详细 
规范 及 报告 所 包含 的 元 素 。《 规 范 》 目 前 只 提供 一 种 
报告 , 即 数据 集 报告 。 标 准 的 数据 集 报告 应 包含 以 上 
10 个 表 头 元 素 , 且 表 头 元 素 应 严格 按照 顺序 出 现 (人 参 
照 上 一 段 描述 中 出 现 的 顺序 ) , 表 头 标签 的 拼写 (如 大 
小 写 ) 都 有 严格 要 求 ,不 可 随意 改动 。 除 了 表 头 元 素 
外 ,如 果 该 数据 集 有 的 话 ,必须 包含 数据 集 名 称 、 出 版 
商 、 创 建 者 、 出 版 日 期 数据 集 版 本 、DOI、URL 等 信息 。 
其 中 ,在 表格 格式 的 报告 中 必须 包含 DO 或 其 他 ID fr 
息 或 URL, 

3.4.3 第 5 部 分 报告 的 传递 ”该 部 分 说 明 内 容 提供 
者 必须 提供 的 信息 以 确保 其 报告 能 被 用 户 获取 。《 规 
范 》 对 使 用 报告 的 传递 作出 如 下 规定 : 第 一 ,报告 必须 
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图 二 情报 三 作 
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R1 《研究 数据 的 使 用 统计 实施 规范 》( 第 1 版) 的 统计 指标 类 型 


统计 指标 类 型 详细 描述 适用 的 场景 ”适用 的 报告 
总 数据 集 调查 量 (To- ” 某 个 数据 集 被 访问 的 全 部 次 数 及 传输 的 数据 量 ( 以 兆 字 节 统计 ) 。 存储 库 DSR 
lal dataset, investiga- — * 重复 点 击 过 滤器 适用 于 该 统计 指标 。 数据 存储 库 ” (Dataset 
tions * 提供 每 个 版 本 的 数据 集 的 调查 量 (包括 次 数 及 数据 量 ) ,并 提供 所 有 版 本 的 总 量 。 master 
report ) 
数据 集 调查 量 ( Unique ”在 某 个 特定 的 用 户 登陆 时 段 内 (通常 指 1 小 时 时 间 窗 口 ) 数 据 集 的 调查 量 。 在 同一 用 户 登 陆 时 段 , 对 存储 库 DSR 
_dataset_investigations) ”同一 个 数据 集 的 多 个 组 成 部 分 的 访问 , 仅 统计 一 次 对 数据 集 的 调查 量 。 数据 存储 库 
* 提供 每 个 版 本 的 数据 集 的 调查 量 (包括 次 数 及 数据 量 ) ,并 提供 所 有 版 本 的 总 量 。 
总 数据 集 请 求 量 (To- ” 某 个 数据 集 被 检索 ( 指 内 容 的 全 文 或 组 成 部 分 被 访问 或 下 载 ) 的 全 部 次 数 及 传输 的 数据 量 ( 以 兆 字 节 存储 库 DSR 
tal_dataset_requests ) 统计 ) 。 数据 存储 库 
* 重复 点 击 过 滤器 适用 于 该 统计 指标 。 
* 提供 每 个 版 本 的 数据 集 的 请 求 量 (包括 次 数 及 数据 量 ) ,并 提供 所 有 版 本 的 总 量 。 
数据 集 请 求 量 ( Unique ”在 某 个 特定 的 用 户 登陆 时 段 内 (通常 指 1 小 时 时 间 窗 口 ) 数 据 集 的 请 求 量 (包括 次 数 及 数据 量 ) 。 在 同 存储 库 DSR 
_dataset_requests) 一 用 户 登 陆 时 段 ,对 同一 个 数据 集 的 多 个 组 成 部 分 的 访问 , 仪 统计 一 次 对 数据 集 的 请 求 量 。 数据 存储 库 
* 提供 每 个 版 本 的 数据 集 的 请 求 量 (包括 次 数 及 数据 量 ) ,并 提供 所 有 版 本 的 总 量 。 
是 以 下 两 种 格式 :() TSV (Tab separated value) 格式 文 ” 用户 信 息 判 定 ,如 用 户 名 ;@ 根 据 用 户 cookie 来 辨别 ; 
件 , 可 容易 且 无 误差 或 无 数据 遗漏 地 导入 至 EXCEL 表 图 根据 session cookie 来 判断 ;@ 通 过 IP 及 浏览 器 的 用 


格 JSON 格式 , 且 遵 循 “ 研 究 数据 SUSHI API 规 
is^ ( Research data SUSHI API specification ) ;第 二 ,报告 


ui 以 单个 文件 传递 以 方便 报告 的 自动 处 理 ; 第 三 ， 
状 构 版 本 的 使 用 报告 应 能 上 载 到 一 个 以 密码 控制 的 网 


站 ,用 户 使 用 密码 能 能 够 随时 访问 , 当 使 用 数据 有 更 新 
时 能 够 通过 邮件 提醒 用 户 ; 且 能 提供 过 滤器 或 选项 供 
入 选择 ,并 必须 提供 平台 的 所 有 标准 报告 的 浏览 ;第 
[至少 每 月 提供 一 次 使 用 报告 ,使 用 报告 应 在 上 个 月 
报告 发 布 后 的 1 个 月 之 内 更 新 ,使 用 数据 通常 按 整 月 
开赴 时 ,但 如 果 不 足 整 月 ,也 可 答 出 部 分 使 用 数据 :第 
ee ee shh 
广告 必须 能 够 通过 电子 资源 使 用 统计 收割 标准 
ses 协议 收割 。 
3. 4. ^ 第 7 部 分 底层 数据 的 处 理 原 则 该 部 分 说 明 
了 使 用 统计 中 数据 采集 和 处 理 原则 ,主要 讨论 统计 数 
据 的 返回 码 重复 点 击 的 过 滤 、 机 器 人 及 疏 虫 检索 等 相 
关 的 问题 。 

关于 重复 点 击 过 滤 问题 ,规定 同一 用 户 在 一 个 链 
接 上 间隔 不 足 30 秒 的 双击 只 被 记 为 一 次 点 击 。 如 第 
一 次 点 击发 生 在 10.01.00, 第 二 次 点 击发 生 在 10.01. 
29 ,这 被 认为 是 重复 点 击 ,只 记录 一 次 点 击 。 如 果 第 
次 点 击发 生 在 10. 01. 00 ,第 二 次 点 击发 生 在 10. 01. 
35, 这 被 认为 是 两 次 单独 的 点 击 ,记录 为 两 次 点 击 。 重 
复 点 击 可 通过 鼠标 点 击 或 按 更 新 或 返回 按钮 触发 。 当 
在 一 个 URL 上 发 生 间 隔 不 足 30 秒 的 两 次 行为 ,第 一 
次 请 求 必须 清除 ,而 保留 第 二 次 的 请 求 信 息 。 对 于 如 
何 判断 是 否 是 同一 用 户 的 点 击 ,《 规 范 ) 提 供 了 4 种 方 
式 ( 按 照 可 信和 度 从 高 至 低 排列 ) :根据 用 户 登陆 时 的 
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户 代理 来 判断 。 

关于 机 器 及 网 络 爬 虫 检索 等 相关 的 问题 第 5 版 
COUNTER 实施 规范 》 强 调 真 正 的 人 类 用 户 的 使 用 量 ， 
HYE T CONI I8 f ri. , [go BUR 5 E] 8 FT t, [e] ST fü 
许 通 过 脚本 语言 (如 python , curl, wget 及 Java) 或 自动 
工具 等 合法 的 机 器 检索 ,这 同样 适用 于 人 研究 数据 中 。 
《规范 》 人 允许 合法 的 机 器 检索 ,体现 在 "检索 方法 ”(Ac- 
cess, method ) 这 个 报告 属性 中 ,通过 赋值 "Regular ”或 
“Machine "来 区 别 合法 的 机 器 浏览 或 下 载 量 , 但 是 不 允 
许 也 不 统计 通过 网 络 爬 虫 或 网 络 机 器 人 的 检索 量 ,并 
通过 黑 名 单 来 排除 用 户 通常 使 用 的 怜 虫 或 机 器 人 代 
理 ,可 参见 第 5 版 COUNTER 所 列 出 的 网 络 机 器 人 或 
JG d p 
3.4.5 第 8 部 分 利用 SUSHI 自动 收割 报告 ”该 部 分 
提供 对 SUSHI 支持 的 详细 描述 。 电 子 资源 使 用 统计 收 
HPR ME SUSHI 是 为 图 书馆 更 为 高 效 地 收集 符合 
COUNTER 标准 的 使 用 数据 而 推出 的 数据 采集 与 传输 
标准 协议 ,解决 和 实现 了 图 书馆 电子 资源 使 用 数据 的 
自动 化 收割 和 管理 问题 。 从 2008 年 第 三 版 COUNTER 
发 布 起 即将 SUSHI 纳入 COUNTER 标准 中 ,并 作为 遵 
循 COUNTER 标准 的 必要 条 件 之 一 。 参 照 第 5 版 
COUNTER,《 规 范 》) 同 样 要 求 内 容 提供 商 必须 支持 其 报 
告 可 通过 SUSHI 自动 收割 ,并 制定 了 “研究 数据 SUSHI 
API 规范 ”。 


4 ”研究 数据 使 用 统计 的 独特 之 处 
通过 梳理 《规范 》 的 内 容 ,笔者 发 现 部 分 使 用 统计 


数据 的 处 理 与 输出 方式 是 研究 数据 所 独 有 的 。《 规 
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范 》 也 特别 强调 了 其 独特 之 处 ,主要 体现 在 : 

首先 ,不 按照 机 构 划 分 使 用 量 。 因 为 研究 数据 不 
像 电 子 期 刊 . 电 子 图 书 等 学 术 资 源 是 通过 订阅 购买 方 
式 获得 ,在 研究 数据 领域 ,订阅 购买 方式 的 发 生 不 是 很 
普遍 ,因此 ,按照 机 构 区 分 使 用 量 的 意义 不 大 。 为 满足 
对 研究 数据 使 用 统计 的 地 理 分 布 信息 的 需求 ,通过 国 
别 而 不 是 机 构 来 提供 使 用 报告 ,这 比 按照 机 构 划 分 使 
用 量 更 利于 使 用 数据 的 公开 与 共享 。 

第 二 ,按照 地 理 信 息 ( 国 别 ) 而 不 是 了 P 地 址 提供 报 
告 。 在 研究 数据 领域 ,按照 国 别 地 理 信息 划分 使 用 统 
计 比 按照 了 来 划分 更 有 意义 ,因为 提供 地 理 信 息 可 帮 
助 了 解 同 一 数据 集 在 不 同 地 理 位 置 的 使 用 情况 。 对 于 
数据 集 来 说 ,其 使 用 取决 于 某 个 地 理 位 置 的 用 户 ,如 描 


合 。 引 用 指标 信息 则 来 自 CrossRef Event Data, 

加 州 数 字 图 书馆 Dash 是 为 研究 人 员 提 供 描 述 、 上 
传 . 管 理 与 分 享 其 人 研究 数据 的 数据 存储 库 ,其 按照 Dat- 
aCite 元 数据 方案 (DataCite metadata schema ) 描述 所 有 
数据 集 , 并 为 每 个 数据 集 提供 DOI Dash 根据 《规范 》 
收集 数据 集 的 使 用 日 期 与 时 间 、 请 求 的 TP 地址、 登录 
时 段 缓存 四 、 用 户 缓存 了 D、 用 户 名 或 用 户 有 D ,被 请 求 的 
URL .数据 集 的 DOL` 数 据 量 大 小 ( 仅 用 于 request 指标 ， 
investigation 指标 不 用 统计 数据 量 大 小 ) 等 项 目 。 同 
时 ,按照 《4 规范》 要求 在 提供 数据 集 的 使 用 统计 时 提供 
关于 数据 集 的 描述 性 元 数据 ,包括 题名 、 出 版 商 、 出 版 
商 ID( 如 ISNI 或 GRID)、 创 建 者 、 出 版 日 期 数据 集 版 
本 .数据 集 的 其 他 四 (如 有 则 可 提供 )、URL ( DataCite 


述 特定 地 区 的 数据 集 。 对 于 美国 等 大 国 ,使 用 报告 可 
以 提供 州 或 省 级 别 的 统计 数据 。 
CN 第 三 ,提供 各 版 本 的 使 用 统计 。 与 其 他 学 术 资源 
相让 ,版 本 在 研究 数据 中 应 用 普遍 上 且 较 为 复杂 。《 规 
Tür USE T MA ,建议 为 每 一 个 特定 版 本 的 研究 数 
气 输出 相应 的 使 用 报告 ,并 统计 所 有 版 本 的 总 使 用 量 。 


可 解析 的 URL) .出 版 物 年 份 等 。 其 中 前 三 项 为 必 有 备 字 
段 ,其 余 为 可 选 字段 。 在 对 具体 统计 数据 的 处 理 上 ， 
Dash 根据 规范》 第 7 部 分 “底层 数据 的 处 理 原则 ”, 区 
分 机 器 与 人 工 两 种 类 型 的 用 户 使 用 ,并 根据 IP 按 国家 
级 别 划分 使 用 数据 ” 。 

图 2 为 加 州 大 学 数字 图 书馆 项 目的 Dash 页 面 , 提 


人 第 四 ,不 提供 各 种 格式 的 使 用 量 ,而 是 提供 数据 量 
(daja volume) 。 与 基于 文本 的 学 术 资 源 相 比 ,研究 数据 
可 DR 多 种 类 型 的 文件 格式 中 检索 。《 规 范 》 没有 按照 文 
伟 降 式 划分 对 研究 数据 的 请 求 量 ,如 不 单独 提供 CSV 或 
XJSX 格式 的 下 载 量 ,而 把 请 求 的 数据 量 作为 使 用 报告 
的 > 部 分 ,主要 是 考虑 这 个 变量 在 研究 数据 中 比 在 其 他 
学 水 资源 中 意义 更 大 。 请 求 的 数据 量 大 小 配合 请 求 及 
调查 量 可 有 助 于 对 比 数据 存储 库 之 间 在 数据 打包 方面 


€ 


AR AEF HC EARE BORE 


5 ”研究 数据 使 用 统计 的 应 用 案例 分 析 
《规范 》 主要 应 用 于 机 构 库 及 数据 存储 库 中 。 机 构 


库 及 数据 存储 库 应 用 该 标准 规范 需要 完成 5 个 步骤” : 
中 阅读 并 了 解 《 规 范 》;@) 按 照 该 标准 规范 处 理 使 用 日 
志 ;@ 发 送 处理 好 的 标准 化 使 用 日 志 至 一 个 开放 的 中 心 
(目前 是 DataCite Hub 作为 研究 数据 使 用 统计 的 开放 中 
心 ) ;由 从 该 开放 中 心 提 取 使 用 及 引用 指标 ;@ 在 存储 库 
平台 展示 标准 化 的 使 用 及 引用 指标 信息 。 
5.1 加州 数字 图 书馆 Dash 和 DataONE 

自 《 规 范 》 制 定 以 来 ,项 目 团队 的 两 个 存储 库 一 一 
Dash ( CDL) 和 DataONE 实施 了 标准 化 的 数据 使 用 和 引 


供 数据 使 用 指标 (包括 浏览 量 及 下 载 量 ) 和 数据 引用 
指标 ,其 中 的 浏览 量 ( Views ) 相当 于 《规范 》 中 的 “in- 
vestigations” J& f ,下 载 量 (Downloads ) 相当 于 《规范 》 中 
f] " requests" 指标。 此 外 还 提供 数据 量 的 大 小 、 数 据 版 
本 、 相 关 的 数据 出 版 物 .标准 的 数据 引用 格式 等 信息 。 
DataONE 从 2018 年 7 月 开始 提供 使 用 与 引用 指标 用 
户 界面 ,提供 每 个 数据 集 的 引用 次 数 、 下 载 次 数 及 浏览 次 
数 ”。 图 3 为 DataONE 的 使 用 与 引用 指标 用 户 界面 。 
5.2 Zenodo 
除 项 目 团队 的 两 个 存储 库 外 ,笔者 还 发 现 Zenodo 
提供 使 用 统计 数据 ,其 提供 的 数据 使 用 指标 比 前 两 个 
数据 存储 库 更 为 全 面 。Zenodo 是 由 欧洲 核 研究 组 织 
( CERN) F 2013 年 5 月 成 立 并 管理 ,由 欧盟 通过 欧洲 
人 研究 开放 获取 基础 设施 (Open access infrastructure for 
research in Europe, OpenAIRE ) 项 目 为 其 提供 资助 , E 
在 支持 欧洲 开放 获取 及 开放 数据 运动 。 为 贯彻 欧盟 开 
放 数 据 政策 ,Zenodo 用 于 存储 欧盟 资助 项 目的 研究 成 
果 , 包 括 期 刊 文章 数据 集 ` 图片 .软件 演示 文稿 等 。 
Zenodo 从 2018 年 7 月 开始 提供 使 用 统计 数据 。 
针对 数据 集 ,Zenodo 根据 COUNTER 及 《研究 数据 
的 使 用 统计 实施 规范 》 追 踪 浏 览 量 及 下 载 量 两 类 使 用 


用 指标 。 其 中 ,数据 使 用 指标 主要 包括 浏览 及 下 载 量 ， 
根据 《规范 》 处 理 内 部 日 志 , 并 将 标准 格式 化 的 使 用 日 
志 发 送 到 DataCite Hub 以 供 公 共 使 用 并 最 终 进行 整 


行为 ,每 类 使 用 行为 都 追踪 访问 者 \ 访 问 者 类 型 (人工 、 
HAr JER) . 国 别 ,参考 域名 等 信息 ,每 三 小 时 更 新 一 
次 使 用 统计 数据 。 目 前 ,Zenodo 不 仅 提供 浏览 量 及 下 
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AmE unique view, ids download 及 数据 量 ， 
并 婉 计 每 个 数据 集 版 本 的 浏览 量 、 下 载 量 及 数据 量 。 
这 些 指 标的 应 用 基本 遵循 《规范 》 中 的 定义 。 图 4 为 
Zenodo 的 使 用 指标 用 户 界 面 。 不 过 ,遗憾 的 是 其 未 提 
供 引 用 指标 。 
5.3 ”主要 大 型 数据 存储 库 

为 调查 除 Dash , DataONE 及 Zenodo 之 外 其 他 数据 
存储 库 对 使 用 统计 指标 的 应 用 情况 ,笔者 选取 7 个 知 


名 的 大 型 数据 存储 库 , 包 括 人 文 社会 科学 领域 的 英国 


Haff, Tonya M. and Magrath, Robert D.. 2013. Data from: To call or not to call: parents assess the vulnerability of their young WW. 
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图 3 DataONE 的 使 用 与 引用 指标 用 户 界 面 ( 检索 时 间 :2018 -12 -24) 


数据 存储 库 的 网 站 (访问 时 间 :2019.1.2-2019.1.5)， 
并 检索 其 数据 集 以 查看 是 否 提供 数据 集 层面 的 计量 指 
标 。 调 查 发 现 ( 见 表 2) ,ICPSR .Figshare , Research Data 
Australia , Dryad 提供 使 用 指标 ,其余 数据 存储 库 暂 未 提 
供 使 用 指标 , 且 很 少 有 数据 存储 库 提 供 引 用 指标 及 替 
代 计 量 指标 , DC Figshare 提供 引用 指标 。 即 使 是 已 提 
供 使 用 指标 的 4 个 数据 存储 库 , 除 Figshare 外 ,其 所 采 
纳 的 计量 指标 都 还 不 是 标准 化 的 使 用 统计 指标 , 如 
Research Data Australia 和 Dryad 提供 的 指标 并 不 是 《 规 


国家 数据 仓储 (The UK data service) .美国 高 校 校 际 政 
治 与 社会 研究 联盟 ( Inter university consortium for politi- 
cal and social research, ICPSR) ,自然 科学 领域 的 Gen- 
Bank( 生 物 学 ) 和 PANGAEA( 地 球 与 环境 科学 ) ,器 学 
科 领 域 的 Figshare ,澳大利亚 国家 数据 服务 中 心 (The 


Australian national data service, ANDS) : Research Data 


Australia 以 及 国际 数据 知识 库 Dryad。 通 过 访问 以 上 
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范 》 的 统计 指标 类 型 , ICPSR 提供 “Total Downloads” 
“Total Sessions" “Total Users" 三 个 下 载 统计 指标 ,每 个 
指标 都 包含 某 一 特定 时 段 内 的 统计 量 ( Unique ) 及 重复 
的 统计 量 (repeated) ,并 提供 按 国 别 划分 下 载 量 。 这 与 
标准 化 的 使 用 数据 统计 所 涉及 的 指标 较为 接近 ,但 仍 

不 能 算是 标准 的 使 用 统计 。 因 此 ,未 来 以 上 主要 大 型 
数据 存储 库 还 有 待 加 强 标准 的 应 用 


o 


ChinaXiv 合 作 期 刊 
林 伟 明 ， 叶 兰 . 研究 数据 使 用 统计 新 标准 及 其 应 用 案例 研究 []]. 图 书 情报 工作 ,2019,63(16) :32 - 42. 
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All This 


we 
M DownloadsQ ^ 236,52) 
Data volume 8 
187.4 kB Unique views € 
186.9 kB 
230.8 kB Unique downloads 
230.8 kB 


6， 基 于 利益 相关 者 推动 数据 使 用 计量 


的 措施 与 建议 


"三 数据 使 用 是 数据 计量 的 一 个 分 支 , 数 据 使 用 计量 
vii 问题 和 挑战 与 数据 计量 的 一 般 性 问题 紧 
密 联系 在 一 起 。 因 此 ,本 部 分 主要 从 数据 计量 这 个 更 
广泛 的 角度 来 推动 各 利益 相关 者 采取 措施 促进 数据 计 
量 的 同时 带动 数据 使 用 计量 的 发 展 。 数 据 使 用 计量 需 
要 数据 提供 收集、 管理 和 传播 等 链条 上 标准 组 织 、 科 
研 人 员 、 机 构 库 及 数据 存储 库 、 出 版 商科 研 机 构 及 资 
助 机 构 .图 书馆 等 不 同 利 益 相 关 者 在 基于 数据 计量 、 开 
放 共 享 、 开 放 获 取 上 的 合作 。 

6.1 标准 组 织 角度 

标准 组 织 在 标准 应 用 过 程 中 起 着 重要 推动 作用 。 
此 ,Make Data Count 项 目 成 员 和 COUNTER 组 织 
来 需要 做 好 以 下 工作 :中 征集 数据 存储 库 。 如 前 述 所 
调研 情况 ,目前 除了 项 目 团 队 的 两 个 存储 库 一 一 Dash 
(CDL) 和 DataONE 实施 了 标准 化 的 数据 使 用 和 引用 指 
标 外 ,很 少 有 数据 存储 库 提 供 标准 化 的 使 用 统计 数据 。 
为 有 效 推进 标准 的 应 用 ,需要 尽 可 能 多 的 数据 存储 库 


S 4 Zenodo 的 使 用 指标 用 户 界面 (检索 时 间 :2018 — 12 -24) 

LO X2 7 个 数据 存储 库 的 数据 计量 指标 提供 情况 

ETT 使 用 指标 引用 指标 替代 计量 指标 
e UK Data Service 无 无 无 
CO ics 下 载 次 数 与 数据 集 相关 的 出 版 物 (并 不 是 真正 意义 上 的 引用 信息 ) X 
Iw GenBank 无 无 无 
z PANGAEA 无 无 无 
N Figshare 浏览 (views) , 下载 次 数 (downloads ) 有 无 
CResearch Data Australia 页 面 浏览 (Pageviews ) 及 数据 检索 次 数 无 无 
CN Dya 页 面 浏览 (Pageviews ) 及 FRUM 无 无 


参与 进来 ,遵循 与 利用 该 标准 规范 。 在 初期 ,可 先 吸纳 
一 些 知 名 的 大 型 数据 存储 库 ( 如 表 2 中 所 提 及 的 ) 加 入 
到 Make Data Count 中 ,特别 是 已 经 提供 使 用 统计 的 
ICPSR ,Figshare , Research Data Australia , Dryad 等 ,鼓励 
其 按照 标准 提供 使 用 统计 ,之 后 逐步 吸纳 其 他 数据 存 
储 库 。 标 准 获 得 规模 效应 后 ,自然 成 为 行业 遵循 的 首 
选 。@ 加 强 对 《规范 》 的 宣传 与 推广 。 可 建设 专门 网 
站 ,提供 人 研究 数据 使 用 统计 相关 的 文章 及 新 闻 报道 ,并 
利用 各 种 会 议 宣传 数据 计量 。 久 推出 标准 的 应 用 指 
南 。 研 究 数据 的 使 用 统计 对 很 多 存储 库 来 说 是 一 项 新 
业务 ,需要 具体 指南 指导 其 实施 。 目 前 ,加 州 数字 图 书 
馆 已 制作 了 一 个 如 何在 存储 库 中 应 用 研究 数据 使 用 统 
计 标 准 规范 的 指南 ,并 提供 了 技巧 及 工具 ”。 此 外 ， 
还 专门 召开 了 一 个 网 络 研 讨 会 “如 何在 您 的 存储 库 中 
实施 Make Data Count" 指导 研究 数据 使 用 统计 的 应 用 。 
这 对 于 推动 标准 应 用 具有 重要 作用 。@ 电 推动 各 标准 的 
配合 使 用 。 标 准 的 使 用 并 不 是 孤立 的 ,《 人 研究 数据 的 使 
用 统计 实施 规范 》 需 要 数据 引用 替代 计量 等 标准 配合 
使 用 ,从 而 建立 基于 使 用 .引用 、 蔡 代 计 量 等 指标 在 内 
的 综合 的 数据 影响 力 评 价 体系 。 名 保证 标准 持续 维 
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护 。 标 准 通常 每 隔 四 至 五 年 需要 根据 现实 需求 进行 升 
级 与 更 新 《研究 数据 的 使 用 统计 实施 规范 》 目 前 是 
第 一 版 , 仍 有 许多 需要 完善 的 地 方 , 如 还 未 明确 要 求 对 
内 容 提 供 商 的 审核 。 因 为 目前 还 不 知道 未 来 哪些 机 构 
愿意 接受 审核 ,对 于 审核 程序 是 否 完全 参照 《第 5 版 
COUNTER 实施 规范 》 或 者 有 所 不 同 还 未 考虑 清楚 。 
此 ,未 来 的 版 本 需要 对 内 容 提供 商 的 审核 细节 进行 规 


que 


AE o 
6.2 ”科研 人 员 角 度 

科研 人 员 是 数据 使 用 计量 最 直接 的 利益 相关 者 。 
如 果 没 有 科研 人 员 共 享 研 究 数据 ,数据 计量 将 是 无 米 
之 炊 ,因此 ,科研 人 员 应 如 同 对 待 文章 一 样 重视 数据 计 
量 指标 ,积极 参与 数据 共享 。 数 据 共享 可 以 多 种 方式 
开展 ,一 是 可 将 数据 存储 至 可 信人 持久、 可 持续 的 数据 
存储 库 中 。 使 用 引用、 蔡 代 计量 指标 的 追踪 依赖 于 数 
车 鲁 拥有 一 个 稳定 的 存储 地 点 ,而 获得 稳定 存储 的 有 
式 即 是 将 数据 存储 至 能 够 实现 长 期 保存 并 提供 未 
漆 副 用 的 数据 存储 库 中 。 科 研 人 员 在 选择 可 信任 的 合 
适 的 数据 存储 库 时 可 参考 DCC 提供 的 标准 ” DE 
傅 强 是 否 有 声誉 是否 经 过 认证 ? 是 否 是 研究 人 员 所 
在 期 刊 .机构 或 资助 机 构 所 推荐 或 要 求 的? 加 该 存储 
Weste potio? 是 否 能 有 利于 数据 集 的 发 
AE? @ 该 存储 库 是 否 对 数据 的 质量 进行 评估 ? 
@ 演 存储 库 是 否 为 数据 集 提供 永久 标识 符 ? 加 该 存储 
雇 是 否 收集 使 用 统计 ?@ 该 存储 库 是 否 被 Data. Cita- 
tiop-dndex 或 其 他 数据 库 索 引 ? 二 是 正式 出 版 ,将 数据 
作 软 正式 科研 成 果 , 进 行 同行 审议 ,公开 出 版 , 供 其 他 
人 露 享 ,如 数据 论文 出 版 .附录 数据 等 。《 科 学 数据 价 
值 ) 报 告 认为 数据 期 刊 ( 即 数据 论文 ) 是 最 适用 于 提取 
及 发 展 科学 数据 影响 力 计量 体系 的 出 版 方式 ,因为 数 


机 构 库 及 数据 存储 库 的 具体 规定 及 要 求 , 不 过 最 好 能 
按照 DataCite 元 数据 方案 描述 数据 集 ” 。 该 方案 是 
一 个 跨 学 科 的 发 现 元 数据 标准 ,有 助 于 数据 集 的 描述 
与 发 现 。 如 果 是 特定 学 科 领 域 的 机 构 库 及 数据 存储 
库 , 最 好 能 按照 学 科 领 域 标准 元 数据 著录 数据 集 。 
DCC 提供 了 多 种 学 科 的 元 数据 标准 ,各 机 构 库 及 数据 
存储 库 可 以 此 为 参考 ,要 求 数据 创建 者 提供 最 基本 的 
元 数据 ” 。 其 次 ,机 构 库 及 数据 存储 库 还 应 提供 展示 
型 元 数据 ,帮助 用 户 理解 及 重用 数据 ,这 其 中 最 重要 的 
是 能 帮助 用 户 复 制 及 验证 研究 成 果 。 如 在 实验 领域 ， 
提供 的 元 数据 应 能 支持 用 户 利用 该 数据 开展 实验 可 得 
出 相同 的 结论 ,在 观测 领域 ,提供 的 元 数据 应 能 支持 用 
户 从 原始 数据 中 得 出 相同 的 结论 或 利用 新 数据 集 开 展 
研究 ,进而 与 原始 结论 进行 对 比 。 笔 者 在 调查 7 个 数 
据 存储 库 时 ,发现 它们 大 都 提供 了 最 基本 的 发 现 型 元 
数据 ,但 是 大 多 还 未 提供 详细 的 展示 型 元 数据 , 较 少 提 
供 关 于 数据 收集 过 程 以 及 如 何 应 用 的 详细 说 明 , 有 的 
数据 存储 库 仅 提供 数据 集 所 在 项 目的 介绍 ,如 ICPSR , 
Research Data Australia。 因 此 ,机构 库 及 数据 存储 库 在 
未 来 需要 加 强 展示 型 元 数据 的 提供 ,帮助 用 户 理解 及 
重用 数据 ,进而 增加 数据 的 使 用 量 。 最 后 ,机 构 库 及 数 
据 存储 库 应 提供 数据 引用 的 标准 格式 ,为 数据 引用 的 
计量 提供 便利 ,建立 基于 使 用 及 引用 的 综合 数据 计量 。 
6.4 出 版 商 ( 数 据 期 刊 ) 角度 

作为 出 版 商 ,如 何 支 持 开放 数据 并 激励 研究 人 员 
像 对 待 文章 一 样 对 待 其 研究 数据 ? 首先 ,应 制定 政 
策 序 励 科研 人 员 存 储 其 研究 数据 至 一 个 能 给 数据 集 分 
配 永久 、 可 引用 的 标识 符 的 稳定 存储 库 。 其 次 ,指导 研 
究 人 员 在 其 参考 文献 列表 中 正确 引用 自己 的 研究 数据 
或 其 他 相关 的 数据 ;第 三 ,在 CrossRef 中 索引 数据 引 
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据 论文 出 版 类 似 于 传统 科学 出 版 物 出 版 ,可 以 充分 运 
用 现存 的 使 用 .引用 和 替代 计量 指标 。 因 此 ,从 影响 力 
角度 来 看 , 残 励 科研 人 员 以 数据 论文 形式 在 数据 期 刊 
上 发 表 数 据 。 
6.3 机构 库 及 数据 存储 库 角 度 

机 构 库 及 数据 存储 库 是 《研究 数据 的 使 用 统计 实 
施 规范 》 的 主要 实施 者 。 对 机 构 库 及 数据 存储 库 而 言 ， 
准确 详细 的 描述 数据 集 是 其 首要 任务 ,因为 数据 首先 
必须 能 够 被 发 现 、 被 理解 ,被 重用 才能 体现 出 其 影响 
力 。 因 此 ,机 构 库 及 数据 存储 库 首先 应 提供 有 助 于 数 
据 集 发 现 的 元 数据 ,如 最 基本 的 发 现 型 元 数据 包括 题 
名 \ 创 建 者 \ 日 期 \ 出 版 商 及 标识 符 等 ,更 详细 的 还 可 提 
供 摘要 、 关 键 词 等 元 数据 。 描 述 的 细 粒 度 取 决 于 学 科 、 
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Jo CrossRef 在 推动 学 术 文献 的 关联 .引用 及 检索 上 发 
挥 了 重要 作用 ,其 除了 保证 学 术 文献 能 通过 DO 永久 
存 取 外 ,还 提供 基础 设施 使 出 版 商 在 出 版 物 出 版 时 能 
够 存储 出 版 物 与 其 相关 资源 的 元 数据 ,以 保证 出 版 物 
能 够 有 效 的 查找 .引用 \ 链 接 与 评估 。 随 着 研究 数据 的 
出 现 , 出 版 物 与 数据 的 关联 (如 数据 引用 ) 成 为 该 项 服 
务 的 新 内 容 之 一 。CrossRef 建议 出 版 商 在 提交 内 容 注 
册 元 数据 时 以 参考 文献 或 关系 类 型 存储 数据 引用 信 
A, ,这样 期 刊 及 出 版 商 之 间 的 数据 引用 将 得 以 整合 并 
通过 单一 门户 供 学 术 社 区 检索 与 使 用 。 为 此 ,CrossRef 
制定 了 相关 操作 指南 ” ,规定 出 版 商 可 在 参考 文献 或 
关系 类 型 两 个 地 方 实现 与 数据 的 关联 。 其 中 ,以 参考 
文献 方式 关联 数据 是 指出 版 商 将 数据 引用 信息 添加 至 
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WARR, 叶 兰 .研究 数据 使 用 统计 新 标准 及 其 应 用 案例 研究 [J]]. 图 书 情报 工作 ,2019 ,63(16 ) :32 -42. 


每 个 出 版 物 的 参考 文献 列表 中 ;以 关系 类 型 关联 数据 
是 指出 版 商 将 数据 的 链接 插入 至 元 数据 存储 的 “rela- 
tionship” * BE IX ,该 字段 能 实现 出 版 物 与 研究 数据 及 
其 他 相关 资源 的 关联 。 
6.5 科研 资助 机 构 和 科研 机 构 角 度 

科研 资助 机 构 和 科研 机 构 是 推动 数据 共享 与 开放 
的 顶层 组 织 ,也 是 推动 数据 计量 的 关键 者 。 科 研 资助 
机 构 和 科研 机 构 主 要 是 在 政策 层面 推动 数据 共享 与 开 
放 。 目 前 科研 资助 机 构 和 科研 机 构 的 数据 共享 政策 较 
少 提 及 以 数据 计量 的 激励 方式 鼓励 科研 人 员 数 据 共 
享 ,而 多 项 研究 也 指出 ,数据 发 布 与 共享 激励 政策 的 缺 
乏 被 认为 是 建立 数据 计量 文化 的 一 个 障碍 。 为 此 , 科 
研 机 构 和 科研 资助 机 构 需 要 为 科研 人 员 提 供 包括 数据 
读 量 的 激励 体系 ,开发 一 套数 据 计 量 指标 用 来 衡量 共 
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VS SONA 用 何 种 方式 需要 科研 资助 机 构 和 
j 碘 机 构 结 合 自身 情况 在 实践 中 逐步 验证 。 


有 重要 角色 与 作用 ,是 科研 评价 数据 ,如 引用 数据 的 主 
要 狂 供 者 ,也 是 文献 计量 方法 的 主要 应 用 者 。 随 着 研 
究 允 据 越 来 越 成 为 学 术 产 出 的 重要 组 成 部 分 ,图 书馆 
仍 本 利用 其 熟悉 文献 计量 分 析 方法 及 科研 评价 指标 与 
数据 库 的 优势 提供 数据 计量 服务 :四 向 科研 人 员 宣 伟 
数据 引用 ,指导 科研 人 员 规 范 数据 引用 行为 ;@ 利 用 数 
据 引用 索引 及 替代 计量 工具 为 科研 人 员 及 科研 机 构 提 
供 相应 的 数据 引用 及 替代 计量 数据 ;@) 已 建设 数据 存 
储 库 的 图 书馆 可 尝试 按照 (研究 数据 的 使 用 统计 实施 
规范 ) 提 供 研究 数据 的 使 用 统计 分 析 报 告 ;@ 推 动机 构 
层面 的 数据 计量 ,与 机 构 合作 开发 并 测试 合适 的 计量 
方法 ; 回 开发 数据 存储 库 的 发 现 工具 ,推动 数据 的 查找 
和 利用 。 


7 结语 
《研究 数据 的 使 用 统计 实施 规范 》 通 过 对 研究 数 
据 的 使 用 统计 的 产生 及 传递 进行 标准 化 规范 ,使 得 数 


据 存储 库 及 平台 提供 商 能 以 一 种 标准 化 的 格式 提供 使 
用 报告 ,为 数据 计量 与 影响 力 评估 提供 了 一 种 新 指标 
与 新 视角 。 被 各 参与 方 接受 与 使 用 是 检验 一 个 标准 是 


和 否 成 功 的 重要 标志 。 除 了 需要 标准 组 织 努 力 宣 传 推广 
外 ,数据 使 用 计量 更 多 依赖 于 各 利益 相关 者 在 数据 产 
生 、 管 理 、 传 播 与 利用 等 环节 建立 较为 完善 的 配套 机 
制 。 相 信 在 各 利益 相关 者 的 合作 下 , 随 着 数据 使 用 、 引 
用 替代 计量 等 指标 体系 的 完善 ,科学 界 将 建立 完整 的 
研究 数据 评价 标准 ,推动 研究 数据 的 共享 与 利用 。 
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Research on the Code of Practice for Research Data Usage Metrics and Its Implementation 
Lin Weiming Ye Lan 
Shenzhen University Library , Shenzhen 518060 

Abstract. | Purpose/significance | This paper introduces the Code of Practice for Research Data Usage Metrics de- 
veloped by Make Data Count and COUNTER , to provide a new metric for evaluating research data impacts from a new per- 
spective. [ Method/process | Through the analysis of the code, the background, purpose, scope, definitions of data ele- 
ments and other terms, and core contents were introduced. Then, through the case analysis, the application of the specifi- 
cation by Dash, DataONE, Zenodo and seven other data repositories were surveyed. [ Result/conclusion | The usage of 
research data has its own unique features. The introduction of the Code can complent the work of data citation and altmet- 
rics for data, and further measure the research impact from historic perspective. At present, there are not many data re- 
positories that follow this standard. In order to promote the application of research data usage metrics, standards organiza- 
tions, researchers, repositories, publishers, funders, research institutions and libraries should cooperate in the produc- 
tion, management, dissemination and utilization of research data. 

Keywords: research data usage data data -level metrics 
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